Masked Modeling (MM) has demonstrated widespread success in various vision challenges, by reconstructing masked visual patches. Yet, applying MM for large-scale 3D scenes remains an open problem due to the data sparsity and scene complexity. The conventional random masking paradigm used in 2D images often causes a high risk of ambiguity when recovering the masked region of 3D scenes. To this end, we propose a novel informative-preserved reconstruction, which explores local statistics to discover and preserve the representative structured points, effectively enhancing the pretext masking task for 3D scene understanding. Integrated with a progressive reconstruction manner, our method can concentrate on modeling regional geometry and enjoy less ambiguity for masked reconstruction. Besides, such scenes with progressive masking ratios can also serve to self-distill their intrinsic spatial consistency, requiring to learn the consistent representations from unmasked areas. By elegantly combining informative-preserved reconstruction on masked areas and consistency self-distillation from unmasked areas, a unified framework called MM-3DScene is yielded. We conduct comprehensive experiments on a host of downstream tasks. The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2% mIoU on semantic segmentation) demonstrates the superiority of our approach.
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
由于模型列出是现代NLP的核心,因此我们着手提高其效率。通过训练示例的动机通常是多余的,我们设计了一种以流媒体方式过滤示例的算法。我们的关键技术是两个:(1)自动确定跳过向后传播的训练损失阈值;(2)维护一个元预测指标,以进一步跳过正向传播。在各种基准测试的基准上,我们的算法将所需的训练示例降低了5 $ \ times $,而平均仅看到轻微的降级,因此将其化为三阶段的过程。我们的方法即使在一个训练时期也很少有效,每个训练示例一次遇到一次。它易于实现,并且与现有的模型列出优化(例如层冻结)兼容。
translated by 谷歌翻译
联合学习(FL)是一个有前途的分布式框架,用于协作人工智能模型培训,同时保护用户隐私。引起大量研究关注的引导组件是激励机制刺激佛罗里达用户协作的设计。大多数作品采用以经纪人为中心的方法来帮助中央运营商吸引参与者并进一步获得训练有素的模型。很少有作品认为参与者之间以参与者为中心的合作来追求其共同利益的FL模型,这会引起以经纪人FL的激励机制设计的显着差异。为了协调自私和异质参与者,我们提出了一个新颖的分析框架,以激励以参与者为中心的FL有效,有效的合作。具体而言,我们分别提出了两个新型游戏模型,用于贡献符合贡献的FL(COFL)和贡献感知的FL(CAFL),后者在其中实现了最低贡献阈值机制。我们进一步分析了COFL和CAFL游戏的NASH平衡的独特性和存在,并设计有效的算法以实现平衡溶液。广泛的绩效评估表明,COFL中存在自由骑行现象,通过采用CAFL模型具有优化的最低阈值,可以极大地缓解这种现象。
translated by 谷歌翻译
2D姿势估计的现有作品主要集中在某个类别上,例如人,动物和车辆。但是,有许多应用程序方案需要检测看不见的对象类的姿势/关键点。在本文中,我们介绍了类别不稳定姿势估计(CAPE)的任务,该任务旨在创建一个姿势估计模型,能够检测仅给出一些具有关键点定义的样本的任何类别对象的姿势。为了实现这一目标,我们将姿势估计问题作为关键点匹配问题制定,并设计一个新颖的Cape框架,称为姿势匹配网络(POMNET)。提出了基于变压器的关键点交互模块(KIM),以捕获不同关键点之间的交互以及支持图像和查询图像之间的关系。我们还介绍了多类姿势(MP-100)数据集,该数据集是包含20K实例的100个对象类别的2D姿势数据集,并且经过精心设计用于开发CAPE算法。实验表明,我们的方法的表现优于其他基线方法。代码和数据可在https://github.com/luminxu/pose-for-venthing上找到。
translated by 谷歌翻译
神经体系结构搜索(NAS)在从给定的超网中寻找有效的深神经网络(DNN)方面取得了惊人的成功。同时,彩票票证假设表明,DNN包含可以从头开始训练的小子网,以达到比原始DNN的可比精度或更高的精度。因此,目前是通过第一次搜索然后修剪的管道开发有效的DNN的常见做法。然而,这样做通常需要进行搜索训练培训过程,因此计算成本过高。在本文中,我们首次发现高效的DNN及其彩票子网(即彩票)可以直接从超级网络中直接识别,我们将其称为超级票,这是通过共同体系结构的两合一培训方案。搜索和参数修剪。此外,我们制定了一种进步和统一的超级标识识别策略,该策略使子网络在超网训练期间的连通性更改,比传统的稀疏培训更高的准确性和效率折衷。最后,我们评估了从一个任务中汲取的这种确定的超级款项是否可以很好地转移到其他任务,从而验证其同时处理多个任务的潜力。对三个任务和四个基准数据集进行的广泛实验和消融研究表明,与典型的NAS和修剪管道相比,我们所提出的超级款项实现了提高的准确性和效率权衡。可以在https://github.com/rice-eic/supertickets上获得代码和预估计的模型。
translated by 谷歌翻译
药物建议是智能医疗系统的关键任务。先前的研究主要建议使用电子健康记录(EHRS)药物。但是,在EHR中可能会忽略或忽略医生与患者之间的相互作用的一些细节,这对于自动药物建议至关重要。因此,我们首次尝试通过医生和患者之间的对话推荐药物。在这项工作中,我们构建了Dialmed,这是第一个用于基于医学对话的药物建议任务的高质量数据集。它包含与3个部门的16种常见疾病和70种相应常见药物有关的11,996次医疗对话。此外,我们提出了对话结构和疾病知识意识网络(DDN),其中QA对话图机制旨在模拟对话结构,并使用知识图来引入外部疾病知识。广泛的实验结果表明,所提出的方法是推荐与医疗对话的药物的有前途的解决方案。该数据集和代码可在https://github.com/f-window/dialmed上找到。
translated by 谷歌翻译
K-Core Deconnosition是一个常用的指标来分析图形结构或研究节点在复杂图中的相对重要性。近年来,图表的规模迅速增长,特别是在工业环境中。例如,我们的工业伙伴以数十亿用户运行流行的社交应用程序,并且能够收集丰富的用户数据。因此,对大型图形的k核分解应用于学术界和行业的越来越多的关注。处理大图的简单但有效的方法是在分布式设置中训练它们,并且还提出了一些分布式k核分解算法。尽管他们有效性,我们在实验和理论上观察到这些算法消耗了太多资源,并在超大型图表上变得不稳定,特别是当给定的资源有限时。在本文中,我们处理那些超大型图形,并在分布式K核分解算法的顶部提出了分行和征服策略。我们在三个大图中评估我们的方法。实验结果表明,资源的消耗可以显着降低,大规模图的计算比现有方法更稳定。例如,分布式K-Core分解算法可以缩放到具有1360亿边缘的大图,而不会与我们的分行和征服技术丢失正确性。
translated by 谷歌翻译
我们微调GPT-3使用基于文本的Web浏览环境来回答长形问题,允许模型搜索和导航Web。通过建立任务,以便通过人类执行,我们能够使用模仿学习培训在任务上的模型,然后通过人体反馈优化答案质量。为了使人为评估事实精度更容易,模型必须在浏览支持答案时收集引用。我们在ELI5上培训并评估我们的模型,Reddit用户提出的问题数据集。我们的最佳模型是通过使用行为克隆进行微调GPT-3获得的,然后对训练训练的奖励模型进行拒绝采样来获得以预测人类偏好。这种模式的答案是人类56%的答案,我们的人类示威者的时间和69%的时间到Reddit的最高投票答复。
translated by 谷歌翻译
已知深神经网络(DNN)容易受到对抗性攻击的影响,即对输入的不可察觉的扰动可以误导DNN在清洁图像上培训,以制造错误的预测。为了解决这一目标,对抗性训练是目前最有效的防御方法,通过增强速度设定的训练,在飞行中产生的对抗样本。有趣的是,我们首次发现,在随机初始化的网络中,在没有任何模型训练的随机初始化网络中,第一次发现具有天生稳健性,匹配或超越对抗训练网络的强大准确性的鲁棒准确性,表明对模型权重的对抗训练不是对抗性鲁棒性不可或缺。我们命名为强大的临时票故障票(RST),也是自然效率的那种。不同于流行的彩票假设,既不需要培训原始密集的网络也不需要训练。为了验证和理解这种迷人的发现,我们进一步开展了广泛的实验,以研究不同模型,数据集,稀疏模式和攻击下RST的存在性和性质,绘制关于DNNS鲁棒性与其初始化/过度分辨率之间的关系的洞察。此外,我们确定从同一随机初始化的密集网络绘制的不同稀疏比率的RST之间的差的对抗性转移性,并提出了一种随机切换不同RST之间的随机切换的随机性,作为基于顶部的新型防御方法第一次。我们相信我们对RST的调查结果已经开辟了一个新的视角,以研究模型稳健性并扩大彩票假设。
translated by 谷歌翻译